Εγώ έχω δουλέψει για ένα αρκετά μεγάλο και βαρύ project ενός crawler που θα μπορούσε να διαβάζει το οτιδήποτε από το web. Φαντάσου κάτι σα το skroutz και τα συναφή. Δοκιμάσαμε δυο parsers ton
HtmlAgility αλλά και τον
Majestic12. Αν διαβάσεις τα documentations θα καταλάβεις εύκολα οτι σαφώς ταχύτερος είναι ο Majestic και στο εγγυώμαι εγώ, ότι είναι με διαφορά. 'Αλλωστε είναι λογικό κάτι που φτιάχνει dom σε xml να αργεί αρκετά. Από την άλλη αν δε σε νοιάζει η ταχύτητα θα σου πρότεινα να δουλέψεις με τον HtmlAgility γιατί το το API του είναι σαφώς πιο εύχρηστο. Αν θες μπορώ να σου δώσω ένα setup κώδικα για να ξεκινήσεις. Δυστυχώς δε μπορώ να σου δώσω πιο πολλά γιατι ανήκει σε εταιρεία το project.
Εν κατακλείδι: Ταχύτητα -> Μajestic
Ευχρηστία -> Agility
softwarebytes.blogspot.com